情報利得(information gain)
内的報酬(intrinsic rewards)の観点:
ある遷移($ s_{t-1},a_{t-1})→($ s_{t})を観測した時、環境の構造に関する信念(belief)をどれだけ更新できるか
遷移確率の不確実性が高いところを探索するようになる